15. 练习:一步动态特性(第 1 部分)

练习:一步动态特性

回顾下回收机器人示例。在上一部分,我们讨论了环境可以在任何时间步确定状态和奖励的一种方法。

假设在随机时间步 t,机器人的电量状态是很高 (S_t = \text{high})。然后,智能体做出搜索响应 (A_t = \text{search})。你在上一部分了解到,在这种情况下,环境对智能体做出以下响应:抛掷一个虚拟硬币后,正面朝上的概率是 70%。

  • 如果硬币正面朝上,环境判断下个状态是电量很高 (S_{t+1} = \text{high}),奖励为 4 (R_{t+1} = 4)。
  • 如果硬币背面朝上,环境判断下个状态是电量很低 (S_{t+1} = \text{low}),奖励是 4 (R_{t+1} = 4)。

如下图所示。

实际上,在任何状态 S_{t} 和动作 A_{t},都可以使用该图判断智能体将如何确定下个状态 S_{t+1} 和奖励 R_{t+1}

假设当前状态是电量很高,智能体决定等待。环境如何确定下个状态和奖励?

SOLUTION: 下个状态电量很高,奖励为 1。

假设当前状态是电量很低,智能体决定充电。环境如何确定下个状态和奖励?

SOLUTION: 下个状态电量很高,奖励为 0。